Alunos:
| Nome | RM |
|---|---|
| Augusto Cesar Ribeiro Freire | 330695 |
| Marcelo Muzilli | 331136 |
| Rafael da Silva Tomaz | 330267 |
| Renato Tavares da Silva | 330659 |
Utilizando a base de vinhos (documento anexado) e disponibilizada em aula o objetivo do trabalho é mensurar a variável “Quality” dos vinhos desta região de Portugal com as variáveis de características (composição) dos vinhos.
Algumas etapas importantes: 1. Base Reconhecimento da Base: Um descritivo do tamanho da base, quantidade de variáveis, formatos, e alguns descritivos (“achados”) sobre a base/variáveis.
## [1] 1599 12
## 'data.frame': 1599 obs. of 12 variables:
## $ fixed.acidity : Factor w/ 96 levels "10","10.1","10.2",..: 71 75 75 13 71 71 76 70 75 72 ...
## $ volatile.acidity : Factor w/ 143 levels "0.12","0.16",..: 77 113 89 13 77 69 57 67 53 42 ...
## $ citric.acid : Factor w/ 80 levels "0","0.01","0.02",..: 1 1 5 57 1 1 7 1 3 37 ...
## $ residual.sugar : Factor w/ 91 levels "0.9","1.2","1.3",..: 11 31 26 11 11 10 6 2 20 73 ...
## $ chlorides : Factor w/ 153 levels "0.012","0.034",..: 40 62 56 39 40 39 33 29 37 35 ...
## $ free.sulfur.dioxide : Factor w/ 60 levels "1","10","11",..: 3 18 7 9 3 5 7 7 60 9 ...
## $ total.sulfur.dioxide: Factor w/ 144 levels "10","100","101",..: 75 109 95 102 75 81 100 60 57 4 ...
## $ density : Factor w/ 436 levels "0.99007","0.9902",..: 343 272 288 355 343 343 240 101 272 343 ...
## $ pH : Factor w/ 89 levels "2.74","2.86",..: 64 33 39 29 64 64 43 52 49 48 ...
## $ sulphates : Factor w/ 96 levels "0.33","0.37",..: 19 31 28 21 19 19 9 10 20 43 ...
## $ alcohol : Factor w/ 65 levels "10","10.0333333333333",..: 57 63 63 63 57 57 57 1 58 7 ...
## $ quality : int 5 5 5 6 5 5 5 7 7 5 ...
## fixed.acidity volatile.acidity citric.acid residual.sugar
## 7.2 : 67 0.6 : 47 0 : 132 2 :156
## 7.1 : 57 0.5 : 46 0.49 : 68 2.2 :131
## 7.8 : 53 0.43 : 43 0.24 : 51 1.8 :129
## 7.5 : 52 0.59 : 39 0.02 : 50 2.1 :128
## 7 : 50 0.36 : 38 0.26 : 38 1.9 :117
## 7.7 : 49 0.58 : 38 0.1 : 35 2.3 :109
## (Other):1271 (Other):1348 (Other):1225 (Other):829
## chlorides free.sulfur.dioxide total.sulfur.dioxide density
## 0.08 : 66 6 : 138 28 : 43 0.9972 : 36
## 0.074 : 55 5 : 104 24 : 36 0.9968 : 35
## 0.076 : 51 10 : 79 15 : 35 0.9976 : 35
## 0.078 : 51 15 : 78 18 : 35 0.998 : 29
## 0.084 : 49 12 : 75 23 : 34 0.9962 : 28
## 0.071 : 47 7 : 71 14 : 33 0.9978 : 26
## (Other):1280 (Other):1054 (Other):1383 (Other):1410
## pH sulphates alcohol quality
## 3.3 : 57 0.6 : 69 9.5 : 139 Min. :3.000
## 3.36 : 56 0.54 : 68 9.4 : 103 1st Qu.:5.000
## 3.26 : 53 0.58 : 68 9.8 : 78 Median :6.000
## 3.38 : 48 0.62 : 61 9.2 : 72 Mean :5.636
## 3.39 : 48 0.56 : 60 10 : 67 3rd Qu.:6.000
## 3.29 : 46 0.57 : 55 10.5 : 67 Max. :8.000
## (Other):1291 (Other):1218 (Other):1073
## [1] 4898 12
## 'data.frame': 4898 obs. of 12 variables:
## $ fixed.acidity : Factor w/ 68 levels "10","10.2","10.3",..: 38 30 50 41 41 50 29 38 30 50 ...
## $ volatile.acidity : Factor w/ 125 levels "0.08","0.085",..: 37 43 39 29 29 39 47 37 43 27 ...
## $ citric.acid : Factor w/ 87 levels "0","0.01","0.02",..: 37 35 41 33 33 41 17 37 35 44 ...
## $ residual.sugar : Factor w/ 310 levels "0.6","0.7","0.8",..: 190 18 258 286 286 258 261 190 18 16 ...
## $ chlorides : Factor w/ 160 levels "0.009","0.012",..: 35 39 40 48 48 40 35 35 39 34 ...
## $ free.sulfur.dioxide : Factor w/ 132 levels "10","101","105",..: 66 17 41 68 68 41 41 66 17 36 ...
## $ total.sulfur.dioxide: Factor w/ 251 levels "10","100","101",..: 76 36 249 94 94 249 40 76 36 32 ...
## $ density : Factor w/ 890 levels "0.98711","0.98713",..: 879 472 561 602 602 561 545 879 472 454 ...
## $ pH : Factor w/ 103 levels "2.72","2.74",..: 24 54 50 43 43 50 42 24 54 46 ...
## $ sulphates : Factor w/ 79 levels "0.22","0.23",..: 23 27 22 18 18 22 25 23 27 23 ...
## $ alcohol : Factor w/ 104 levels "10","10.0333333333333",..: 88 95 3 104 104 3 98 88 95 22 ...
## $ quality : int 6 6 6 6 6 6 6 6 6 6 ...
## fixed.acidity volatile.acidity citric.acid residual.sugar
## 6.8 : 308 0.28 : 263 0.3 : 307 1.2 : 187
## 6.6 : 290 0.24 : 253 0.28 : 282 1.4 : 184
## 6.4 : 280 0.26 : 240 0.32 : 257 1.6 : 165
## 6.9 : 241 0.25 : 231 0.34 : 225 1.3 : 147
## 6.7 : 236 0.22 : 229 0.29 : 223 1.1 : 146
## 7 : 232 0.27 : 218 0.26 : 219 1.5 : 142
## (Other):3311 (Other):3464 (Other):3385 (Other):3927
## chlorides free.sulfur.dioxide total.sulfur.dioxide density
## 0.044 : 201 29 : 160 111 : 69 0.992 : 64
## 0.036 : 200 31 : 132 113 : 61 0.9928 : 61
## 0.042 : 184 26 : 129 117 : 57 0.9932 : 53
## 0.04 : 182 35 : 129 118 : 55 0.993 : 52
## 0.046 : 181 34 : 128 114 : 54 0.9934 : 50
## 0.048 : 174 36 : 127 122 : 54 0.9938 : 49
## (Other):3776 (Other):4093 (Other):4548 (Other):4569
## pH sulphates alcohol quality
## 3.14 : 172 0.5 : 249 9.4 : 229 Min. :3.000
## 3.16 : 164 0.46 : 225 9.5 : 228 1st Qu.:5.000
## 3.22 : 146 0.44 : 216 9.2 : 199 Median :6.000
## 3.19 : 145 0.38 : 214 9 : 185 Mean :5.878
## 3.18 : 138 0.42 : 181 10 : 162 3rd Qu.:6.000
## 3.2 : 137 0.48 : 179 10.5 : 160 Max. :9.000
## (Other):3996 (Other):3634 (Other):3735
Análise exploratória de dados:
Detecção de outliers, gráficos e análise sobre os dois tipos de vinhos. Correlações entre elas (numéricas e gráficos).
Análise Exploratória de dados - Gráficos e análise sobre o tipo de vinho
## [1] "Acidez Fixa (ácido tartárico - g/dm^3) é de 262"
## [1] "Acidez Volátil (ácido acético - g/dm^3) é de 38"
## [1] "Ácido Cítrico (g/dm^3) é de 0"
## [1] "Açucar Residual (g/dm^3) é de 74"
## [1] "Cloretos (cloreto de sódio - g/dm^3) é de 105"
## [1] "Dióxido de Enxofre livre (mg/dm^3) é de 0"
## [1] "Dióxido de Enxofre total (mg/dm^3) é de 30"
## [1] "Densidade (g/cm^3) é de 0"
## [1] "pH (escala de 0 (muito ácida) a 14 (muito básica)) é de 25"
## [1] "Sulfatos (Sulfato de potássio - g/dm3) é de 58"
## [1] "Álcool (% por volume) é de 0"
Segue abaixo a quanntidade de outliers para cada item encontrado
## [1] "Acidez Fixa (ácido tartárico - g/dm^3) é de 74"
## [1] "Acidez Volátil (ácido acético - g/dm^3) é de 172"
## [1] "Ácido Cítrico (g/dm^3) é de 258"
## [1] "Açucar Residual (g/dm^3) é de 0"
## [1] "Cloretos (cloreto de sódio - g/dm^3) é de 208"
## [1] "Dióxido de Enxofre livre (mg/dm^3) é de 52"
## [1] "Dióxido de Enxofre total (mg/dm^3) é de 339"
## [1] "Densidade (g/cm^3) é de 0"
## [1] "pH (escala de 0 (muito ácida) a 14 (muito básica)) é de 72"
## [1] "Sulfatos (Sulfato de potássio - g/dm3) é de 124"
## [1] "Álcool (% por volume) é de 0"
Avaliar se a análise será feita com os dois tipos de vinhos juntos ou se separaria por tipo para analisá-los. No fechamento desta etapa colocar qual a opção seguirá sobre os tipos de vinhos , sobre os outliers (caso tenha) e o uso de Componentes Principais
## quality fixed.acidity volatile.acidity citric.acid
## quality 1.000 -0.093 -0.191 -0.009
## fixed.acidity -0.093 1.000 -0.032 0.277
## volatile.acidity -0.191 -0.032 1.000 -0.154
## citric.acid -0.009 0.277 -0.154 1.000
## residual.sugar 0.038 -0.033 0.111 -0.061
## chlorides -0.236 0.038 0.061 0.115
## free.sulfur.dioxide -0.066 -0.019 -0.042 0.104
## total.sulfur.dioxide -0.027 0.010 0.035 -0.017
## density -0.329 0.263 0.007 0.146
## pH 0.100 -0.409 -0.035 -0.167
## sulphates 0.053 -0.020 -0.038 0.065
## alcohol -0.154 -0.015 0.133 0.055
## residual.sugar chlorides free.sulfur.dioxide
## quality 0.038 -0.236 -0.066
## fixed.acidity -0.033 0.038 -0.019
## volatile.acidity 0.111 0.061 -0.042
## citric.acid -0.061 0.115 0.104
## residual.sugar 1.000 -0.019 0.031
## chlorides -0.019 1.000 0.103
## free.sulfur.dioxide 0.031 0.103 1.000
## total.sulfur.dioxide -0.061 -0.052 -0.089
## density 0.126 0.320 0.274
## pH -0.009 -0.089 -0.033
## sulphates -0.043 0.022 0.029
## alcohol 0.047 0.239 0.153
## total.sulfur.dioxide density pH sulphates alcohol
## quality -0.027 -0.329 0.100 0.053 -0.154
## fixed.acidity 0.010 0.263 -0.409 -0.020 -0.015
## volatile.acidity 0.035 0.007 -0.035 -0.038 0.133
## citric.acid -0.017 0.146 -0.167 0.065 0.055
## residual.sugar -0.061 0.126 -0.009 -0.043 0.047
## chlorides -0.052 0.320 -0.089 0.022 0.239
## free.sulfur.dioxide -0.089 0.274 -0.033 0.029 0.153
## total.sulfur.dioxide 1.000 -0.126 -0.053 -0.019 -0.005
## density -0.126 1.000 -0.095 0.070 0.378
## pH -0.053 -0.095 1.000 0.157 -0.160
## sulphates -0.019 0.070 0.157 1.000 -0.029
## alcohol -0.005 0.378 -0.160 -0.029 1.000
##
## branco vermelho
## 3 20 10
## 4 163 53
## 5 1457 681
## 6 2198 638
## 7 880 199
## 8 175 18
## 9 5 0
##
## branco vermelho
## 3 20 10
## 4 163 53
## 5 1457 681
## 6 2198 638
## 7 880 199
## 8 175 18
## 9 5 0
Modelo de Regressão Linear:
Regressão linear é uma equação para se estimar a condicional (valor esperado) de uma variável y, dados os valores de algumas outras variáveis x. A regressão, em geral, tem como objectivo tratar de um valor que não se consegue estimar inicialmente.
A regressão linear é chamada “linear” porque se considera que a relação da resposta às variáveis é uma função linear de alguns parâmetros. Os modelos de regressão que não são uma função linear dos parâmetros se chamam modelos de regressão não-linear. Sendo uma das primeiras formas de análise regressiva a ser estudada rigorosamente, e usada extensamente em aplicações práticas. Isso acontece porque modelos que dependem de forma linear dos seus parâmetros desconhecidos, são mais fáceis de ajustar que os modelos não-lineares aos seus parâmetros, e porque as propriedades estatísticas dos estimadores resultantes são fáceis de determinar.
Modelos de regressão linear são frequentemente ajustados usando a abordagem dos mínimos quadrados, mas que também pode ser montada de outras maneiras, tal como minimizando a “falta de ajuste” em alguma outra norma (com menos desvios absolutos de regressão), ou através da minimização de uma penalização da versão dos mínimos quadrados. Por outro lado, a abordagem de mínimos quadrados pode ser utilizado para ajustar a modelos que não são modelos lineares. Assim, embora os termos “mínimos quadrados” e “modelo linear” estejam intimamente ligados, eles não são sinônimos.
##
## Call:
## lm(formula = quality ~ alcohol + pH)
##
## Residuals:
## Min 1Q Median 3Q Max
## -3.15042 -0.71492 0.03722 0.31700 3.10174
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 5.8778219 0.0452543 129.884 < 2e-16 ***
## alcohol -0.0035241 0.0003543 -9.947 < 2e-16 ***
## pH 0.0045271 0.0008386 5.399 7.03e-08 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.8726 on 4895 degrees of freedom
## Multiple R-squared: 0.02955, Adjusted R-squared: 0.02915
## F-statistic: 74.52 on 2 and 4895 DF, p-value: < 2.2e-16
## [1] 0.8723665
## [1] 0.8855482
Modelo de Árvore de Regressão:
Uma árvore de regressão é idêntica a uma árvore de decisão porque também é formada por um conjunto de nós de decisão, perguntas, mas o resultado, em vez de uma categoria, é um escalar (número que pertence a uma escala).
As árvores de regressão são usadas quando a variável dependente é contínua. As árvores de classificação são usadas quando a variável dependente é categórica.
Neste tipo de árvore para análise o valor obtido pelos nós de término nos dados de treinamento é o valor médio das suas observações. Assim, a uma nova observação de dados atribui-se o valor médio correspondente.
## Named num [1:4898] 5.39 5.6 5.53 5.65 5.65 ...
## - attr(*, "names")= chr [1:4898] "1" "2" "3" "4" ...
## [1] 0.7474812
## [1] 0.8855482
Modelo de Árvore de Decisão:
Um modelo de aprendizagem de árvore de decisão é uma classe de métodos estatísticos que prevê uma variável de meta usando uma ou mais variáveis que tenham influência na variável de meta e que, muitas vezes, são chamadas de variáveis de previsão. A previsão é feita pela criação de um conjunto de regras de divisão de “inclusão-implicação” que otimizam um critério. Os critérios usados para formar essas regras dependem da natureza da variável de meta. Se a variável de meta identificar a associação em um conjunto de categorias, uma árvore de classificação será criada com base na maximização da “pureza” em cada divisão baseada no coeficiente Gini ou em um índice de informações baseado em entropia. Se a variável de meta for uma variável contínua, uma árvore de regressão será criada usando os critérios de divisão para minimizar a soma dos erros ao quadrado em cada divisão.
## preds_cat
## 5.51222048881955 5.71935483870968 6.07996406109614 6.54935622317597
## 1923 930 1113 932
## 1 2 3 4 5 6
## 5.512220 5.512220 5.719355 5.512220 5.512220 5.719355
## Vinho.previsto.com.modelo
## quality 5.51222048881955 5.71935483870968 6.07996406109614
## 3 8 4 6
## 4 73 47 33
## 5 935 283 195
## 6 762 481 554
## 7 123 103 282
## 8 22 11 43
## 9 0 1 0
## Vinho.previsto.com.modelo
## quality 6.54935622317597
## 3 2
## 4 10
## 5 44
## 6 401
## 7 372
## 8 99
## 9 4
## [1] 0.1329114
## [1] 0.8670886
Modelo 4: Regressão Logística:
A regressão logística é uma técnica estatística que tem como objetivo produzir, a partir de um conjunto de observações, um modelo que permita a predição de valores tomados por uma variável categórica, frequentemente binária, a partir de uma série de variáveis explicativas contínuas e/ou binárias.
O êxito da regressão logística assenta sobretudo nas numerosas ferramentas que permitem interpretar de modo aprofundado os resultados obtidos.
Em comparação com as técnicas conhecidas em regressão, em especial a regressão linear, a regressão logística distingue-se essencialmente pelo facto de a variável resposta ser categórica.
Enquanto método de predição para variáveis categóricas, a regressão logística é comparável às técnicas supervisionadas propostas em aprendizagem automática (árvores de decisão, redes neurais, etc.), ou ainda a análise discriminante preditiva em estatística exploratória. É possível de as colocar em concorrência para escolha do modelo mais adaptado para um certo problema preditivo a resolver.
A regressão logística é amplamente usada em ciências médicas e sociais, e tem outras denominações, como modelo logístico, modelo logit, e classificador de máxima entropia.
##
## Call:
## glm(formula = quality ~ alcohol + pH, family = gaussian, data = white_wine_quality)
##
## Deviance Residuals:
## Min 1Q Median 3Q Max
## -3.15042 -0.71492 0.03722 0.31700 3.10174
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 5.8778219 0.0452543 129.884 < 2e-16 ***
## alcohol -0.0035241 0.0003543 -9.947 < 2e-16 ***
## pH 0.0045271 0.0008386 5.399 7.03e-08 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for gaussian family taken to be 0.7614897)
##
## Null deviance: 3841.0 on 4897 degrees of freedom
## Residual deviance: 3727.5 on 4895 degrees of freedom
## AIC: 12570
##
## Number of Fisher Scoring iterations: 2
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 5.530 5.742 5.875 5.878 6.002 6.315
## white_wine_quality$fx_predito
## quality [3,9)
## 3 20
## 4 163
## 5 1457
## 6 2198
## 7 880
## 8 175
## 9 5
## [1] 0.004083299
## quality
## fx_predito1 3 4 5 6 7 8 9
## [5,6) 14 119 1155 1578 647 134 4
## [6,7) 6 44 302 620 233 41 1
## quality
## fx_predito1 3 4 5 6 7 8
## [5,6) 0.7000000 0.7300613 0.7927248 0.7179254 0.7352273 0.7657143
## [6,7) 0.3000000 0.2699387 0.2072752 0.2820746 0.2647727 0.2342857
## quality
## fx_predito1 9
## [5,6) 0.8000000
## [6,7) 0.2000000
Comparação entre os modelos:
Utilizando as métricas adequadas para comparação de modelos façam um resumo sobre a qualidade dos modelos e indiquem qual o modelo/técnica que vocês recomendariam
Resumo das técnicas utilizadas
A escolha da técnica estatística pode não ser lá a decisão mais crucial para que um modelo preditivo seja bom, mas saber escolher entre uma técnica e outra pode trazer ganhos expressivos e até ser determinantes no sucesso das previsões. Cada técnica apresenta benefícios e limitações diferentes.
Neste trabalho utilizamos os seguintes métodos: 1. Regressão Linear 2. Árvore de Decisão 3. Árvore de Regressão 4. Regressão Logística
Das técnicas utilizadas, a que pudemos classificar melhor a análise foi a árvore de Decisão, justamente pela sua fácil interpretação.
Recomendação
O Modelo de Árvore de deisão nos permitiu obter melhor o resultado do Vinho de Boa qualidade com um teor alcóolico não muito alto. Bom para ser apreciado.
O modelo de Clusterização seria uma ótima abordagem.
A Aprendizagem não supervisionada, por outro lado, nos permite abordar problemas com pouca ou nenhuma idéia do que nossos resultados deve ser aparentar. Podemos derivar estrutura de dados onde nós não necessariamente saberiamos o efeito das variáveis. Podemos derivar essa estrutura, agrupando os dados com base em relações entre as variáveis nos dados. Também pode ser usada para reduzir o número de dimensões em um conjunto de dados para concentrar somente nos atributos mais úteis, ou para detectar tendências. Com aprendizagem não supervisionada não há feedback com base nos resultados da previsão.